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t" • Se discute y revisa un método numérico propuesto que, de manera 

alternativa (y complementaria) al método tradicional de compresión, 
permite aproximar la complejidad algorítmica de cadenas, particularmen- 

qq te útil para cadenas cortas para las cuales los métodos tradicionales de 

C""*) compresión no son efectivos y dependen de los algoritmos de compresión. 

El método muestra ser estable ya que produce clasificaciones razonables 

' . I a partir de modelos de computación razonables, incluidos sistemas de 

etiquetas de Post, autómatas celulares y máquinas de Turing. Además, 
permite la concepción (y comparación) de un modelo que predice la 
distribución de patrones en un mundo algorítmico. 
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1. Introducción 



En el estudio de sistemas complejos, es fundamental contar no sólo con de- 
finiciones precisas sino también con herramientas para evaluar la complejidad 
de sus objetos de estudio. El trabajo que hemos desarrollado y publicado en [7], 
presenta una alternativa, confiable y estable [9], para evaluar la complejidad al- 
gorítmica (o de Kolmogorov) de cadenas de caracteres, en particular de cadenas 
cortas, para las cuales el método tradicional de compresión es, en la práctica, 
inútil para aproximar su complejidad algorítmica. La complejidad algorítmica 
de un objeto es la descripción más corta posible que regenera el objeto. 

El método introducido en [8, 7] y recientemente difundido en la versión fran- 
cesa de la revista Scientific American Pour La Science [9], provée un nuevo 
método numérico y efectivo (hasta cierto punto) para la evaluación de la com- 
plejidad algorítmica de cadenas. En este artículo lo describimos brevemente en 
el contexto de su relevancia como herramienta en el estudio e investigación en el 
área de sistemas complejos con su amplia y diversa gama de posibles aplicaciones 
debido a que, por primera vez, permite aproximar la complejidad de objetos que 
generalmente se utilizan en aplicaciones prácticas, esto es, de objetos pequeños, 
cadenas de longitud corta. Por ejemplo en la compresin de datos, algoritmos de 
optimizacin, problemas de reconocimiento y clasificacin, por mencionar algunas. 
La mejor referencia introductoria al tema y aplicaciones es [14] 

1.1. Pseudomedidas de complejidad 

Algunos métodos atractivos para calcular la complejidad de cadenas cor- 
tas son insuficientes porque no coinciden con la complejidad de Kolmogorov de 
cadenas cuando aumenta la longitud que se requiere para que la medida sea 
consistente. Por ejemplo, una medida largamente pero erróneamente utilizada 
es la entropía de Shannon [10] que se define como — p¿ logp¿ (donde pi es una 
frecuencia). Con esta medida, la cadena 01010101010101010101 es la cadena con 
mayor entropía de Shannon posible para una cadena de longitud 20 (ya que tiene 
tantos "0"s como "l"s). Mientras que, la cadena 10010111010100001011, tam- 
bién de longitud 20, tiene la misma entropía de Shannon pero nuestra intuición 
nos dice que debería ser más compleja. 

La entropía de Shannon no hace mas que contar el número de "0"s y "l"s en 
una cadena ya que nunca fue diseñada para medir la complejidad (o el "orden") 
de la información contenida en la cadena. Es una medida estadística que ni 
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siquiera es capaz de considerar las repeticiones y que hereda los problemas de la 
teoría clásica de probabilidades que, precisamente, la teoría de la complejidad 
algorítmica (la complejidad de Kolmogorov) resuelve. De hecho, la entropía de 
Shannon es simplemente un corolario de la complejidad de Kolmogorov: si un 
objeto es más complejo su transmisión toma, potencialmente, más tiempo. 

Otras medidas, como la complejidad por factores, por ejemplo, son errónea- 
mente utilizadas cuando no hacen más que cuantificar el número de posibles 
maneras de ordenar un sistema, son medidas probabilistas que en nada (o muy 
poco) se relacionan con una medida de complejidad. Si los investigadores en 
sistemas complejos están interesados en una medida combinatoria (por ejem- 
plo, el número de capas, de elementos en interacción, etc.), con las limitaciones 
producto de las bases probabilistas en las que se funda (como es el caso, por 
mencionar otro ejemplo, del parámetro lambda de Langton [11]), los investiga- 
dores pueden continuar utilizando medidas ad-hoc en el entendido de que no 
son una medida de complejidad universal (es decir, una medida de compleji- 
dad general y objetiva que pueda aplicarse en cualquier situación y a cualquier 
sistema). 

Hoy en día, una amplia variedad de conceptos, basados en medidas como 
la entropía de Shannon (que Shannon diseño con el propósito de cuantificar el 
ancho de banda necesario para un canal de comunicación) y otras falsas medidas 
de complejidad, se emplean para calcular y comparar la complejidad de objetos 
discretos bajo la falsa idea de que es el número de elementos o interacciones 
en un sistema hacen que un sistema sea complejo (por ejemplo, en la teoría de 
sistemas dinámicos, sistemas incluso muy simples resultan comportarse caótica- 
mente, incluso en sistemas de cómputo deterministas y extremadamente simples 
sin interacción con el medio, producen aleatoriedad aparente y impredictabilidad 
[21]). Algunos autores podrían argumentar que hay otras medidas de compleji- 
dad, pero medidas de complejidad como la profundidad lógica de Bennett [2], 
están fundadas, o bien son variaciones de la complejidad de Kolmogorov que 
toman en cuenta otros parámetros como el tiempo, la geometría de la evolución 
de un sistema o son versiones computables [14] (que asumen recursos finitos) 
e interesantes de la complejidad de Kolmogorov, mientras que la mayoría del 
resto de las pseudo medidas de complejidad están fundadas en distribuciones 
de probabilidad o densidad, como la medida de Shannon o el parámetro de 
Langton. 
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1.2. Complejidad algorítmica de Kolmogorov-Chaitin 



Imaginemos que se nos proporcionan dos cadenas cortas y se nos pregunta 
cuál de ellas parece ser el resultado de un proceso que genera cada símbolo de 
la cadena al azar. Digamos que las cadenas son binarias y cortas, por ejemplo 
0101 y 1011. A simple vista, la primera cadena tiene un patrón, aunque se repita 
sólo dos veces, y que podría ser aprovechado para generar una descripción de 
la cadena. En español, por ejemplo, la primera cadena podría ser descrita como 
"dos veces cero y uno" (aunque el lenguaje se presta a confusiones, ya que la 
misma descripción puede interpretarse como 001 si no se conoce la longitud de 
la cadena 1 ). Por otro lado, la segunda cadena parece necesariamente requerir 
una descripción ligeramente más larga. La primera podría describirse también 
como "cero seguido de uno seguido de cero seguido de uno". Descripciones de 
la segunda pueden incluir "uno y cero seguido de dos unos" o "uno, cero, uno, 
uno" , que no parece ésta última una versión comprimida de la cadena, sino más 
bien una traducción a una forma expandida del idioma. De hecho, pareciera que 
cadenas con patrones permiten menos descripciones distintas (inténtese, por 
ejemplo, con cadenas más largas). 

Para resolver si alguna de las dos cadenas es, sin lugar a dudas, más sencilla 
que la otra, o si la aparente repetición de la primera cadena puede realmente 
aprovecharse a pesar de repetirse sólo dos veces, es necesario fijar un lenguaje 
objetivo (y que no permita las ambigüedades del lenguaje coloquial). Para de- 
terminar cuál de las cadenas parece más aleatoria que la otra bastaría, entonces, 
comparar sus respectivos valores de complejidad. La complejidad algorítmica de 
una cadena es el programa más corto, medido en número de bits, que produce 
una cadena dada cuando se ejecuta en una máquina universal de Turing. Asu- 
mimos que el lector está familiarizado con el concepto de máquina de Turing y 
de máquina universal de Turing. Para una buena introducción véase [16]. 

El concepto de complejidad, introducido por Andrei Kolmogorov y Gregory 
Chaitin define la complejidad K(s) de un objeto s como el tamaño del programa 
más corto de computadora que genera s. Formalmente, Kjj(s) = mín{|p|, U(p) = 
s} donde |p| es la longitud de p medido en bits. En otras palabras, el tamaño 
de un archivo comprimido s es la complejidad de s. La complejidad de Kol- 

1 En inglés, éste tipo de ambigüedades regularmente se pueden evitar con la introducción 
de una coma. Así "zero, and one twice" y "zero and one twice", engendran 011 y 0101 respec- 
tivamente. En español, la solución es "cero y uno dos veces" versus "cero y uno, dos veces", 
pero en general la gramática en español (y otros idiomas, por ejemplo, francés) no permite 
comas antes de la conjunción 'y' lo que no permite resolver todos los casos de ambigüedad de 
este tipo. 
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mogorov (o Kolmogorov-Chaitin, para ser justos) proporciona una medida de 
aleatoriedad. 

La complejidad algorítmica es considerada la medida universal de compleji- 
dad. Sin embargo, no existe algoritmo efectivo que, para una cadena, el algoritmo 
produzca el entero que corresponda a la longitud del programa más corto (la 
mejor compresión posible) que genere la cadena como salida (el resultado se 
debe al problema de la detención de las máquinas de Turing). Lo que significa 
que uno no puede medir con absoluta certeza la complejidad algorítmica de una 
cadena. 

El que sea no computablc no significa, sin embargo, que no se le pueda 
utilizar ya que en realidad a menudo se le puede aproximar de manera eficaz. 
El cálculo del valor aproximado de la complejidad de Kolmogorov, gracias a 
algoritmos de compresión sin pérdida, hacen del concepto una herramienta de 
gran utilidad usado en diversas aplicaciones. De hecho existen aplicaciones de la 
teoría de la complejidad algorítimea que han resuelto problemas de clasificacón 
de todo tipo de objetos [14, 22], para estudiar la similitud de ciertos idiomas, 
especies de animales, para detectar fraudes (por ejemplo, plagios) y caracterizar 
imágenes [24]. 

1.3. El problema de las cadenas cortas 

La complejidad de Kolmogorov permite una caracterización matemática del 
azar: una cadena aleatoria s de n bits de información es una cadena cuya comple- 
jidad de Kolmogorov K(s) es cercana a n. Es decir, el programa que lo produce 
es de más o menos el mismo tamaño en bits que la cadena original. Una cadena 
aleatoria infinita es tal que ningún proceso de compresión puede comprimir por 
más de una constante ningún segmento inicial de la cadena. Por ejemplo, la 
secuencia infinita 01010101... no es aleatoria, porque uno puede definir de forma 
concisa la "serie infinita de 01" y, sobre todo, escribir un programa muy corto 
basado en un bucle que genere la secuencia infinita. La secuencia compuesta de 
los dígitos de ir tampoco son aleatorios: hay un programa más corto que genera 
todos sus decimales. 

La forma de abordar la complejidad algorítmica de una cadena es por medio 
del uso de algoritmos de compresión sin pérdida. Sin pérdida significa que se 
puede recuperar la cadena original a partir de la versión comprimida por medio 
de un programa de descompresión. Entre más compresible se considera menos 
compleja la cadena. Por el contrario, si no es compresible, se le considera a la 



5 



cadena como aleatoria o máximamente compleja. El resultado de un algoritmo 
de compresión es una cota superior de su complejidad algorítmica, por lo que 
se dice que la complejidad de Kolmogorov es computable por arriba. Esto quie- 
re decir que a pesar de que uno nunca puede decir cuando una cadena no es 
compresible, si uno tiene éxito en la reducción de la longitud de una cadena se 
puede decir que la complejidad algorítmica de esa cadena no puede ser mayor a 
la longitud de la versión comprimida. 

Para evitar hacer trampa y decir que uno puede comprimir cualquier cadena 
con un algoritmo de compresión ad hoc (por ejemplo, codificando artificialmente 
ciertas cadenas complicadas con programas cortos interpretados en una máquina 
universal truqueada) la codificación de la máquina debe ser parte de la comple- 
jidad de un objeto cuando es medida con respecto a esa máquina. Un algoritmo 
de compresión transforma una cadena comprimida en dos partes: una parte es la 
versión comprimida del objeto original, y la otra las instrucciones para descom- 
primir la cadena. Ambas partes deben ser contabilizadas en el tamaño final de la 
cadena comprimida, debido a que se requieren las instrucciones de decompresión 
para obtener la cadena original sin necesidad de depender de la elección arbi- 
traria del algoritmo (o de la máquina de Turing). En otras palabras, uno puede 
considerar que agrega el algoritmo de descompresión a la cadena comprimida 
de manera que la cadena comprimida sea autodescomprimible y venga con sus 
propias instrucciones de descompresión 2 . A la larga, un teorema [14] (llamado 
de invarianza) garantiza que los valores de la complejidad convergen a pesar de 
la elección arbitraria de lenguajes de programación o la utilización de máquinas 
de Turing truqueadas (en otras palabras, uno no puede seguir engañando por 
siempre) . 

El teorema de invarianza [19, 5] acota la diferencia entre evaluaciones de la 
complejidad de Kolmogorov calculadas con diferentes máquinas de Turing. Si U 
y U' son dos máquinas de Turing universales diferentes, el teorema estipula que si 
Kjj(s) es la complejidad algorítmica de una cadena s medida con respecto a una 
máquina universal U y Ku> (s) es la complejidad algorítmica de la misma cadena 
s medida con respecto a otra máquina universal U' entonces \Kjj(s) — Kjji(s)\ < 
c donde c es una constante que no depende de s. En otras palabras, la diferencia 
en las evaluaciones es a lo más la longitud finita de un compilador que pueda 
escribirse entre U y U'. 

Uno requiere la utilización de máquinas universales porque es la única mane- 

2 De hecho, algunos programas, como GZIP, permiten la generación de archivos comprimi- 
dos ejecutables, que empacan precisamente las instrucciones de descompresión en el programa 
mismo y no requiere ni siquiera de tener instalado GZIP para descomprimirlo 
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ra de garantizar que la máquina va a producir la cadena que elijamos evaluar y 
no se esté restringido a poder preguntarse sobre la complejidad de un conjunto 
limitado de cadenas (por ejemplo, cadenas producidas por lenguajes regulares). 

El teorema de invarianza muestra que un sentido amplio la complejidad de 
Kolmogorov es una medida objetiva y universal. Aunque el teorema de invarian- 
za le da estabilidad a la definición de complejidad de Kolmogorov, también hace 
evidente que, para cadenas cortas la medida es inestable porque la constante 
implicada (c), o sea el tamaño de la máquina universal (o las instrucciones de 
descompresión) dominan el resultado final en la evaluación de K(s). Es decir, 
incluir las instrucciones de descompresión afecta la complejidad relativa de una 
cadena si la complejidad de la cadena es más pequeña que la longitud de las 
instrucciones de descompresión, lo que resulta en evaluaciones inestables cuando 
se trata de cadenas cortas, es decir, cadenas de longitud cercana o menor a la 
longitud típica de las instrucciones de descompresión (en el orden del tamaño 
en bits del algoritmo de descompresión). 

Hasta ahora, a diferencia de cadenas suficientemente largas para las cua- 
les los método de compresión funcionan, no existía un método para evaluar la 
complejidad algorítmica de cadenas cortas, y por lo tanto una manera objetiva 
de determinar si una cadena como 000 es más simple que 01101001 a pesar de 
que la intuición nos sugiere que la primera parece más simple y la segunda más 
aleatoria. Nos gustaría decir objetivamente que, por ejemplo, la cadena de 7 bits 
1001101 parece más compleja que la cadena 0000000, o que 0001000 tiene una 
complejidad intermedia a las dos anteriores. Así que tenemos una idea intuitiva 
de una clasificación de complejidad pero no una medida objetiva que valide la 
intuición. ¿Cómo hacer que la teoría confirme la intuición, y que sea universal 
y consistente tanto para cadenas cortas como largas? 

1.4. El problema del método de compresión 

Para cadenas cortas (que son a menudo las usadas en aplicaciones prácticas), 
la adición de las instrucciones de descompresión de la versión comprimida hace 
que la cadena comprimida, con frecuencia, resulte más larga que la versión 
original. Si la cadena es, por ejemplo, más corta que el tamaño del algoritmo 
de descompresión, no habrá forma de comprimir la cadena en algo más corto 
que la longitud original de la cadena, simplemente porque las instrucciones de 
la descompresión rebasan la longitud de la cadena original (Figura 1). Por otra 
parte, el resultado depende tanto del tamaño del algoritmo de descompresión 
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(porque en estos casos es el mayor contribuyente a la longitud total) y por lo 
tanto la longitud (y aproximación de la complejidad algorítmica) es demasiado 
inestable. 

A manera de ilustración, si se trata de comprimir una cadena corta con, 
digamos, el lenguaje de programación Mathematica, se obtiene que la longitud 
de la versión comprimida de la cadena de longitud 0101 es: 

StringLength@Compress[' '0101"] = 30 

(incluso antes de que la versión comprimida sea transformada a bits para que 
el resultado esté en el mismo lenguaje de la cadena misma) 

Esto significa que la compresión de la cadena 0101 requiere de un programa 
de 46 caracteres (aún más en bits) para ser generada, lo que no tiene sentido 
alguno, pues la simple descripción en español es más corta que la versión com- 
primida con Mathematica. En Mathematica, las cadenas comienzan a ser mejor 
comprimidas (en caracteres) cuando las cadenas tienen una longitud de 30 bits. 
Si se trata de comprimir 1011 se llega nada menos que al mismo valor que para 
0101, es decir: 

StringLength@Compress[' '1011"] = 30 

Éste no es, sin embargo, un fallo de Mathematica sino el resultado de lo que 
hemos explicado. La función Compress en Mathematica en realidad está basada 
en el algoritmo de compresión sin pérdida Deinflate, que es una combinación 
del algoritmo LZ77 y Huffman, dos de los algoritmos de compresión sin pérdida 
más populares disponible del mercado, utilizados en formatos públicos como 
ZIP, GZIP, GIF y PNG. 

Las instrucciones obviamente ocupan un espacio del valor final de la longitud 
comprimida y no pueden ser ellos mismos (las instrucciones) comprimidas (si 
lo fueran, sería en todo caso una longitud constante para todas las cadenas, 
que nos remiten a la misma situación). En resumen, hay un límite para los 
algoritmos de compresión para comprimir cadenas cortas. Así que si se quisiera 
decir cuál de las dos cadenas son objetivamente más o menos complejas por 
medio de la aproximación de su complejidad algorítmica mediante un algoritmo 
de compresión, resulta que no hay manera de obtener una respuesta, por el 
contrario, se encuentra una medida inestable y generalmente sin sentido (Figura 
2). 
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Figura 1: Gráfica de compresión de una cadena de n bits (eje x) contra su 
versión comprimida (eje y) usando un típico algoritmo de compresión de datos. 
Al principio de la línea de compresión se observa que el origen no pasa por y = 0, 
incluso cuando x — 0, lo que significa que cadenas cortas comprimidas resultan 
más largas que su tamaño original. 




Figura 2: Al hacer un acercamiento al origen de esta gráfica de compresión de 
una cadena de n "l"s (eje x), contra las diferentes longitudes de sus versiones 
comprimidas (eje y), se verifica que el inicio es más inestable que el resto. 
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1.4.1. El problema del bit isolado 

Por ejemplo, dada la definición de la complejidad algorítmica basada en la 
compresibilidad, si una cadena no es compresible entonces es aleatoria, de donde 
de inmediato se podría decir que un bit isolado, ó 1, son cadenas al azar con 
toda certitud, ya que tienen complejidad algorítmica máxima, dado que no hay 
manera de comprimir un solo bit en algo más corto (siendo el bit indisociable, 
la unidad mínima y básica). En otras palabras, no hay un programa de menos 
de 1 bit que produzca o 1. La mejor descripción de y 1 son, por lo tanto, 
y 1 mismos. Por lo tanto, la teoría dice que son automáticamente cadenas 
aleatorias. Evidentemente, esto puede chocar con nuestra intuición de azar si se 
les compara con cadenas más largas y que parecen más el resultado de azar, o 
al menos se les puede considerar más complejas (por ejemplo, 0110101). 

Por un lado, un bit solo no contiene información alguna, y por este motivo 
uno podría pensar que representa de alguna manera al azar. Si uno piensa si 
uno habría sido capaz de predecir o 1 como el resultado de un proceso, dado 
que no hay ningún contexto, ya que se producen solos, se podría concluir que su 
ocurrencia es de alguna manera el resultado (aparente o no) del azar. En otras 
palabras, si uno ve una cadena como 010101, uno apostaría fácilmente que el 
siguiente bit es un 0, pero si no se le proporciona mas que un bit no hay manera 
de favorecer uno u otro resultado siguiente. 

Es difícil, sin embargo, justificar cómo la cadena de un solo bit "0" podía 
parecer más aleatoria que, digamos, cualquier otra cadena posible, sino es bajo 
el razonamiento descrito anterior, que se refiere a contextos y no la noción 
de compresibilidad. La intuición nos dice que las cadenas cortas (incluido "0.° 
"1" ) no parecen más aleatorias que cualquier otra cadenas posible, y que si un 
bit representa la máxima complejidad entre todas las cadenas finitas, y otras 
cadenas cortas como 000 no son aleatorias, entonces hay una fase de transición 
particularmente abrupta entre las cadenas de 1 bit y cadenas de unos cuantos 
bits más, lo que parece contraintuitivo. 

El problema a resolver es, como Delahaye ha señalado en [9], un problema 
de termómetro: entre todos los instrumentos de medición que conducen a la 
evaluación de la complejidad de Kolmogorov, pero que difieren por constantes 
aditivas ¿cuál es el mejor? ¿cómo elegir? Una solución es utilizar el método 
que hemos diseñado. En lugar de elegir un sólo termómetro, o una sola medida, 
enumeramos todas y nos fijamos en un conjunto suficientemente grande de ellas. 
El método le va a dar sentido también al problema del bit isolado. 
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2. La probabilidad algorítmica de Solomonoff- 
Levin 

La intuición nos dice que algo aleatorio también debe ser raro y poco común. 
Si uno se pregunta qué tan común es o 1 como resultado de la ejecución de 
un programa elegido al azar, hay una medida que indica la probabilidad de que 
un programa produzca una cadena determinada si se ejecuta en una máquina 
universal de Turing. Esta es la medida que utilizamos para presentar un nuevo 
método para evaluar la complejidad algorítmica de cadenas, incluyendo cadenas 
cortas incluso de un bit, como alternativa al uso tradicional de los algoritmos 
de compresión. El nuevo método tiene como objetivo para resolver el problema 
de la evaluación de la complejidad de las cadenas cortas, como hemos discutido; 
y resuelve el problema del bit isolado. Se basa en el concepto de probabilidad 
algorítmica de Solomonoff -Levin y se conecta con la complejidad algorítmica 
(Kolmogorov-Chaitin) por medio del teorema de codificación de Chaitin-Levin. 

Este nuevo método que resuelve varios problemas que la teoría y los métodos 
actuales no permitían resolver, tiene una limitación: es muy costoso en términos 
de computación. Como la duración o las longitudes muy cortas, los objetos de 
complejidad muy débil son muy difíciles de evaluar y, paradójicamente, el méto- 
do de evaluación requiere de un cálculo masivo. En la práctica, sólo proporciona 
resultados para cadenas muy cortas y desde este punto de vista los métodos de 
compresión siguen siendo esenciales para complementar la necesidad de aproxi- 
mar la complejidad algorítmica de cadenas largas. Delahaye hace una analogía 
interesante: Al igual que en astronomía, donde, dependiendo del tipo de objetos 
y la distancia, se utiliza uno u otro método para calcular distancias, en las medi- 
das de complejidad, nuestro método proporciona una alternativa para cadenas 
cortas y se pueden adoptar métodos híbridos con la utilización de algorithmos de 
compresión y técnicas de concatenación (en particular para cadenas de tamaño 
mediano) . 

La idea que subyace nuestro nuevo termómetro de baja complejidad para 
cadenas cortas se basa en una propiedad notable de la complejidad de Kolmo- 
gorov: entre más un objeto es simple, más se produce con frecuencia cuando se 
utiliza una computadora ejecutando programas al azar. 

En un lenguaje de programación Turing completo (es decir, en el que cual- 
quier función computable puede implementarse) si cada secuencia de instruc- 
ciones es generada de manera aleatoria y ejecutada, muy frecuentemente pro- 
ducirá un programa gramaticalmente inválido que no puede si quiera ejecutar- 
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se. Otras muchas veces el programa va a comenzar a ejecutarse y no se de- 
tendrá jamás. Estos programas no nos interesan, sólo nos interesan aquellos que 
producen como salida una cadena finita de "0"s y "l"s y se detienen. 

Evidentemente si se ejecutan varios programas distintos algunos van a pro- 
ducir la misma salida (para la misma entrada). Si ejecutamos tantos programas 
como podamos podemos generar una clasificación de frecuencia en donde a cada 
cadena se le asigna una frecuencia de repetición r de entre todos los programas t 
ejecutados. Esto define una distribución de probabilidad sobre {0, 1}™, es decir, 
sobre todas las cadenas binarias. 

Como resultado, obtenemos que cadenas como 0000000 son mucho más fre- 
cuentes que cadenas como 1001101. El resultado es una distribución de potencia 
en donde las cadenas más frecuentes tienen baja complejidad y las menos fre- 
cuentes mayor complejidad (son más aleatorias). Esta probabilidad es la medida 
que Solomonoff [18] y Levin [12] caracterizaron matemáticamente mediante un 
razonamiento relativamente sencillo (tirar programas al azar) . En resumen, para 
Kolmogorov, la complejidad de una cadena es una longitud mientras que para 
Solomonoff es una probabilidad. 

Formalmente, si m(s) es la probabilidad de producción de s, m(s) = 



2 ' p ' = pr(U(p) = s). Es decir, la suma sobre todos programas p que al 



ejecutarse en una máquina (autodelimitada) universal de Turing U generan s y 
se detienen, o si se prefiere, la probabilidad de que U corriendo p produzca s. 

Una máquina de Turing autodelimitada o prefix-free es una máquina cuyas 
entradas forman una codificación prefix-free, esto quiere decir que ninguna en- 
trada es el principio de ninguna otra. Esto es para garantizar ciertas propiedades 
de la medida por varias razones. Más detalles pueden encontrarse en [4, 14]. Una 
codificación prefix-free es, por ejemplo, el sistema mundial de números telefóni- 
cos. Si un número telefónico fuera el principio de uno otro, nunca le sería posible 
a uno comunicarse con el del número de teléfono más largo pues como funciona 
la red de telefonía mundial, la secuencia de números que formen un número de 
teléfono valido es inmediatamente utilizado para realizar la conexión. Imagina 
por un momento que mi número de teléfono fuera 558973213 y que el de otra 
persona fuera 558973. Evidentemente, el que intente marcar mi número siempre 
acabará comunicándose con 558973. Una codificación prefix-free permite poder 
hablar de la probabilidad de un conjunto de programas que produzcan cierta 
cadena sin que el conjunto pueda acotarse de alguna forma. 




p:U(p)=s 
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2.1. El teorema de codificación de Chaitin-Levin 

Los valores de m están relacionados con la complejidad algorítmica porque 
el término más grande en la sumatoria es el programa más corto, y por tanto, es 
K(s) quien domina el total. Un teorema, clave para el método que propusimos 
para evaluar la complejidad de Kolmogorov, relaciona matemáticamente m(s) y 
K(s). El teorema de codificación de Chaitin-Levin establece que K(s) es apro- 
ximadamente igual a — log 2 (m(s)). En otras palabras, K{s) y m(s) difieren de 
una constante c, independiente de la cadena s tal que | — log 2 (m(s)) — K(s)\ < c. 

A groso modo, la probabilidad algorítmica m dice que si hay muchas des- 
cripciones largas de cierta cadena, entonces también hay una descripción corta 
y por lo tanto con baja complejidad algorítmica y si hay pocas descripciones 
para una cadena, entonces difícilmente tendrá una descripción corta. 

Que el logaritmo negativo de m(s) coincida con la complejidad algorítmica de 
s con una diferencia de una constante significa que aproximar m(s) nos aproxima 
a K(s). Debido a que ni K(s) ni m(s) son computables, no hay programa que 
tome s como entrada y produzca m, m tiene que ser también aproximado en 
lugar de calculado con certeza absoluta. 

3. Cálculo de la probabilidad de producción 

El cálculo de m(s) se obtiene mediante la ejecución de un gran número de 
programas que serán producidos al azar, o de un conjunto de programas que 
se enumeran de manera sistemática (que resulta en lo mismo). Al combinar 
los resultados teóricos discutidos anteriormente se obtiene una distribución que 
llamaremos SL(s), y de donde podremos calcular — log 2 (SX(s)) para aproximar 
K(s). SL es una distribución que puede escribirse en función del número de 
estados de las máquinas que se utilizan para generar la distribución de frecuencia 
de salida de las máquinas de Turing. Como función, SL no es computable ya 
que si lo fuera, es decir si se pudiera calcular numéricamente SL para cualquier 
número de estados de máquinas de Turing, se podría resolver el problema del 
castor atareado para cualquier número de estados, lo que se sabe es imposible 
por contradicción con el resultado de Rado de incomputabilidad de las funciones 
del castor ateareado. 
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3.1. Máquinas de Turing pequeñas 

Usamos un método de cálculo tan primitivo como posible, pero lo suficien- 
temente poderoso para que cualquier programa pueda ser ejecutado y cualquier 
cadena producida. Introducido por Alan Turing en 1936, el modelo de las máqui- 
nas de Turing ha desempeñado un papel fundamental en la ciencias de la compu- 
tación y la lógica matemática, ya que ha permitido el estudio de lo que es un 
algoritmo y, en la práctica, del desarrollo de la computadora digital. El modelo 
de Turing puede verse como un lenguaje de programación; la descripción de una 
máquina de Turing es equivalente a escribir un programa de computación. 

Las máquinas de Turing son el modelo de computación más conocido, debido 
a que es un modelo que tiene una representación física cuya motivación fue la 
descripción de un humano que calculara con lápiz y papel. Podemos verlas como 
una abstracción de nuestras computadoras. Disponen de una cinta de longitud 
ilimitada dividida en celdas discretas (análoga a la tira de papel donde escribía 
el computador humano) sobre la que se sitúa una cabeza capaz de leer y escribir 
en la celda donde se encuentra. La máquina sólo lee y escribe un conjunto 
finito de símbolos conocido como su alfabeto. Entre estos símbolos hay uno 
llamado usualmente blanco que es el que por defecto llena todas las celdas de 
la cinta. Existe un conjunto finito de estados en los que puede encontrarse la 
máquina. Uno de tales estados es el estado inicial desde el que comienzan todas 
las computaciones. También suele haber un estado de detención, que cuando se 
alcanza se termina la computación. En cada paso de computación, la máquina 
de Turing: 

1. Lee el símbolo escrito en la celda sobre la que se encuentra la cabeza. 

2. En función del símbolo leído y del estado actual de la máquina: 

a) Escribe un nuevo símbolo en la celda (puede ser igual al que había). 

b) Se desplaza una posición a la izquierda o derecha sobre la cinta. 

c) Cambia de estado (o permanece en el mismo). 

Así se continúa hasta llegar al estado de parada. Lo que caracteriza las 
computaciones de una máquina de Turing es su tabla de transiciones. Si ve- 
mos la enumeración anterior, el comportamiento en cada paso de computación 
dependerá del estado en que se encuentra la máquina de Turing y el símbolo 
leído. 

Las máquinas de Turing constituyen el ejemplo más conocido de dispositivo 
de computación abstracto capaz de computación universal, lo que significa que 
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para cualquier función efectivamente calculable existe una máquina de Turing 
que la calcula. Especialmente interesantes son las máquinas de Turing univer- 
sales, capaces de simular la computación de cualquier otra máquina de Turing. 

El número de estados de una máquina de Turing determina su poder de 
cálculo. Máquinas con un estado sólo pueden hacer cálculos sencillos, tales como 
invertir OalylaOa una cadena que se les presenten. Una máquina que 
dispone de 2 estados comienza a hacer cosas más interesantes. El número de 
máquinas con 2 estados es, curiosamente, 10 000 que por supuesto sólo pueden 
generar cadenas muy cortas (no más largas que el máximo número de pasos 
que una máquina que se detiene puede alcanzar y que es acotado por el número 
de estados). Al operar todas las máquinas de Turing de 3 estados, el número 
de máquinas comienza a crecer de manera colosal pero éstas generan cadenas 
más largas que permiten el cálculo de frequencia, y por tanto la probabilidad 
de producción de cadenas un poco más largas. 

3.1.1. El problema de la detención 

Sin embargo, las máquinas de Turing pueden detenerse o no dependiendo si 
entran en el estado de detención de su tabla de instrucciones (y del contenido de 
la cinta, que en este caso es siempre blanco) . Aunque Alan Turing demuestra la 
existencia de una máquina de Turing universal, es decir, una máquina de Turing 
capaz de simular cualquier otra máquina de Turing, también muestra que no 
existe una máquina de Turing que pueda determinar si cualquier otra máquina 
se detendrá. A este problema se le conoce como el problema de la detención. 

Evidentemente, si uno está interesado en la salida de una máquina de Turing, 
definida como el resultado de lo que contiene su cinta una vez que se detiene. Si 
no es posible saber si una máquina se va a detener no hay manera de determinar 
con certeza su salida, ni la frecuencia de una cadena en general. 

Una manera elegante y concisa de representar el problema de la detención es 
el número de Chaitin fi [5] (un número irracional entre y 1), cuyos dígitos en 
su expansión binaria es la probabilidad de detención de una máquina de Turing 
universal corriendo programas al azar. Formalmente, < O = 2~' p ' < 

p se detiene 

1 con \p\ la longitud de p en bits 3 . 

3 La definición precisa requiere que la máquina de Turing universal sea prefix-free (para 
mayor información véase [4]) 
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3.2. El problema del castor atareado 



De entre las máquinas que se detienen una pregunta, realizada por Rado [17], 
es cuál máquina de n estados (y 2 símbolos) escribe más símbolos o le toma más 
tiempo para detenerse a partir de una cinta en blanco. Al máximo número de 
pasos se le asigna un número 5 (n) que depende solamente del número de estados 
n y se le llama a dicha máquina un castor atareado (o busy beaver en inglés) 
comúnmente denotado por B(n). 

Ahora bien, si se conoce el valor 5(n) para B{n) cualquier máquina que corra 
más de 5(n) es una máquina que no se detendrá nunca. Así que basta ejecutar 
cada máquina para saber si se detiene o no. Rado demuestra, sin embargo, que la 
función n — > S(n) no es computable, es decir, no existe un algoritmo (o máquina 
de Turing) que dado un número de estados produzca el número S(n). 

El número f2 de Chaitin, el castor atareado, la probabilidad algorítmica 
y nuestro método, están todos íntimamente relacionados. Para máquinas de 
Turing pequeñas, el problema de la detención se puede resolver porque, por un 
lado, porque no son relativamente muchas y uno puede ya sea ejecutar todas las 
máquinas y examinar su comportamiento o examinar la tabla de instrucciones de 
la máquina y decidir analíticamente si se detiene o no. Sin embargo, la secuencia 
de números del castor atareado, 5(1), 5(2), . . . crece más rápido que cualquier 
secuencia computable. Porque si una máquina de Turing pudiese computar una 
sucesión que crece más rápido que el castor atareado, entonces dicha secuencia, 
paradójicamente, resolvería el problema del castor atareado. 

Es fácil verificar que para B(l), 5(1) = 1 pues no hay mucho lugar para cual- 
quier otro comportamiento más complicado. Con dos estados, Rado determina 
que 5(2) = 6 y unos años después, junto con Lin [15], probaron que 5(3) = 21 
requiriendo un análisis exhaustivo y un importante poder computacional. Brady 
[3], usando técnicas de análisis más sofisticadas y aún un mayor poder compu- 
tacional prueba que que 5(4) = 107, pero el valor de 5(5) es desconocido, 
aunque se conocen algunas cotas. 

Un programa que muestra los valores de los castores atareados y su evolución 
está disponible en línea [25]. 

4. Evaluando la complejidad de cadenas cortas 

El hecho de conocer los valores del castor atareado permite acotar el cálculo 
sistemático y masivo de un gran número de máquinas de Turing para producir 
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una clasificación de frecuencia de cadenas binarias. Esta consideración es, por 
supuesto, esencial para no perder tiempo innecesariamente en funcionamiento 
de máquinas que no contribuyen a los resultados deseados. Para máquinas de 
Turing con 3 estados, por ejemplo, cualquier máquina que ejecute más de 22 
pasos, es una máquina que no se dentendrá nunca, ya que para -B(3), S'(3)=21. 
Para 4 estados 5(4) = 107, pero no se conoce 5(n) para n > 4 y por lo tanto 
nuestro experimento exhaustivo sólo puede realizarse a lo más para todas las 
máquinas de 4 estados. 

Para las 7 529 526 máquinas de Turing con 2 símbolos (0 y 1) y 3 estados, 
los resultados de SL(s) comienzan a arrojar indicios de un ordenamiento no 
trivial de una clasificación de complejidad para cadenas binarias. Por ejemplo, 
entre las cadenas binarias de longitud 6, el cálculo de SL(s) produce, median- 
te la ejecución de máquinas de Turing con 3 estados, las cadenas 000000 y 
lililí con la más alta probabilidad (y por lo tanto la más baja complejidad 
algorítmica) , que es lo que uno podría esperar. Seguido en orden de las siguien- 
tes cadenas: 000001, 100000, 111110 y 011111 con igual frecuencia, seguidas 
de 000100, 001000, 111011 y 110111 con igual frecuencia, seguidas de 001001, 
100100, 110110 y 011011, 010110 y finalmente por el conjunto 101001, 100101 
y 011010. Esta clasificación es bastante sutil, pero natural para colocar la ca- 
dena que puede describirse como un 1 detrás de cinco como más simple que 
un 1 con tres delante y dos detrás. La clasificación obtenida con la máquinas 
de Turing tiene 3 estados producen sólo 128 diferentes cadenas con las cuales 
comparar. Esto deja a las demás cadenas un poco más largas, pero aún cortas, 
sin probabilidad. Por lo tanto, ejecutamos las máquinas de Turing con 4 esta- 
dos para obtener un mayor número de cadenas y generar una clasificación más 
completa y fidedigna. Para ello fue necesario correr 11019 960 576 máquinas de 
Turing, que a pesar de ciertos métodos para acortar su cálculo llevo casi 9 días 
(en una sola computadora portátil con un procesador Dúo a 1.2 Ghz. y 4Gb de 
memoria RAM) usando un programa escrito en lenguaje C, mediante la librería 
bignum para grandes números ya que las tablas de transición de cada máquina 
se generaban en tiempo real a partir de una enumeración, ya que generar las 
reglas de manera combinatoria y almacenarlas resultaba, para este número de 
máquinas, imposible para cualquier disco duro actualmente en el mercado (sin 
mencionar el tiempo de lectura que para cada máquina tomaría). Algunas si- 
metrías pudieron ser explotadas (por ejemplo, para toda regla de una máquina 
de Turing existe una que es su complemento y basta calcular el complemento 
de su salida para conocer el resultado antes de correrla) reduciendo el tiempo 
de cómputo a los 9 días mencionados. 
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Las máquinas de Turing con 4 estados producen 1824 diferentes cadenas 
binarias que permiten la aproximación de K(s) a través de SL(s) y la fórmula 
— log 2 (SX(s)). Hay que tener en cuenta que la complejidad de Kolmogorov 
calculada a través de SL es un número real. Esto es realmente una ventaja ya 
que permite una clasificación más fina, pero si se quiere interpretar el resultado 
como la longitud de un programa basta tomar el siguiente entero. 

Así que valores exactos pueden ser numéricamente aproximados mediante el 
uso délos valores conocidos del castor atareado hasta n = 4 y hemos publicado 
las tablas completas en línea [1] y tablas parciales en [7]. 

4.1. Un método estable, autómatas celulares y un modelo 
de distribución de patrones 

Una pregunta fundamental, y evidente, es qué tan estable y robusto es el 
método si se utilizan diferentes formalismos de cómputo (por ejemplo, usan- 
do máquinas de Turing con una cinta ilimitada en una sola dirección o utili- 
zando autómatas celulares en lugar de máquinas de Turing). Hemos mostrado 
que formalismos de cómputo razonables producen clasificaciones de compleji- 
dad razonables [23]. Las mismas distribuciones de frecuencia fueron producidas 
ejecutando y explorando un espacio representativo de autómatas celulares unidi- 
mensionales con 2 colores y rango 3/2, es decir, el espacio de autómatas celulares 
que utilizan en sus reglas de producción el estado de 2 celdas a la izquierda y 
una a la derecha, y con condición inicial la más simple posible (una celda negra). 
Este espacio de autómatas celulares, que es justo en tamaño el espacio siguiente 
más grande al de autómatas celulares elementales [21] (es decir, unidimensio- 
nales, con rango 1 y 2 colores posibles) nos permitió hacer una exploración del 
tipo de clasificaciones de complejidad de cadenas que producen. Se eligió este 
espacio porque el espacio siguiente más simple es el de los autómatas celulares 
elementales definidos por Wolfram [21] que no contiene mas que 256 autómatas 
celulares y por lo tanto un número no muy significativo. Evidentemente tanto 
para autómatas celulares, como máquinas de Turing o cualquier otro forma- 
lismo de computación, entre más número de autómatas explorados mejor. Sin 
embargo, las restricciones en tiempo y recursos de cómputo no permiten obtener 
resultados en un tiempo razonable, ni añaden necesariamente mayor información 
al modelo descrito. 

A diferencia de las máquinas de Turing, los autómatas celulares favorecen 
ciertas simetrías por la manera en que los autómatas celulares evolucionan apli- 
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Figura 3: Comparación de /c-tuplas generadas por autómatas celulares (CA), 
máquinas de Turing (TM) y sistemas de etiquetado de Post (TS). Las tupias 
están ordenadas por orden lexicográfico. 

cando su regla en paralelo sobre todas las celdas al mismo tiempo. Además, 
también a diferencia de las máquinas de Turing, los autómatas celulares no 
tienen un estado de detención (las cadenas que producen no contienen, por lo 
tanto, la información de su los límites extremos que contiene una cadena pro- 
ducida por una máquina de Turing que se detiene) ya que un autómata celular 
se detiene en un tiempo arbitrario decidido por el que lo ejecuta (en nuestro 
caso, cada autómata celular fue detenido arbitrariamente después de 100 pa- 
sos). Sin embargo, las clasificaciones producidas mediante autómatas celulares 
(y también sistemas de etiqueta de Post) resultaron parecerse unas a otras, la 
similitud fue cuantificada estadísticamente mediante el coeficiente de correla- 
ción de Spearman [20] (coeficiente diseñado para comparar clasificaciones). El 
hecho de que las clasificaciones no sólo sean razonables con respecto a nues- 
tra intiuición de lo que es complejo o simple (por ejemplo, las cadenas 000... 
y 010101... aparecen con baja complejidad aleatoria mientras que cadenas que 
parecen aleatorias intuitivamente, lo son también en las clasificaciones), sino 
además estén correlacionadas estadísticamente (Figura 3) y sean compatibles 
con la definición universal de complejidad algorítmica, proporcionan un méto- 
do eficaz, general y estable (las tablas con las clasificaciones completas están 
disponibles en http : //www . algorithmicnature . org). 
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El método descrito tiene, por un lado, la remarcable característica de resol- 
ver un problema teórico (el de la estabilidad de la definición y evaluación de 
la complejidad de cadenas cortas, por ejemplo, el problema del bit isolado) y 
permite, en la práctica y gracias a su estabilidad y consistencia, la compara- 
ción de la complejidad de distintas clasificaciones. Esta última ventaja permite, 
por ejemplo, comparar la distribución de patrones (cadenas con cierta comple- 
jidad) presente en el mundo físico (a partir de fuentes de información empírica) 
y la clasificación producida por medios algorítmicos (utilizando las máquinas de 
Turing o algún otro formalismo). Sus similitudes y diferencias podrían decirnos 
qué tanto las estructuras que se forman en el mundo real pueden ser el resultado 
de procesos algorítmicos a diferencia de, por ejemplo, procesos mayoritariamen- 
te aleatorios. En [23] y [26] nos hemos formulado estas preguntas, y esbozado 
un inicio de ruta de investigación. 

5. Comentarios finales 

El avance del programa de investigación que se describe aquí pone a dispo- 
sición un método general para calcular la complejidad de Kolmogorov. 

En el artículo de Pour La Science [9] Delahaye señala: 

Pour les petites séquences, cette mesure est stable et conforme no- 
tre idée de la complexité, et, pour les grandes, elle est, d'aprs le 
tliéormc mentionné conforme la mesure de meilleure mesure de 
complexité unanimement admisc, la complexité de Kolmogorov. Que 
demander de plus? 

(Para cadenas cortas, esta medida [la medida que describo en este 
artículo, nuestro comentario] es estable y se ajusta a nuestra idea 
de la complejidad, y, para largas cadenas, de acuerdo con el teorema 
mencionado [el teorema de invarianza, nuestro comentario], se ajusta 
a la mejor y universalmente aceptada medida de la complejidad, la 
complejidad de Kolmogorov. ¿Qué más se puede pedir?) 

El método pretende ser utilizado para evaluar la complejidad de cadenas más 
largas mediante su descomposición en subeadenas más cortas para las cuales po- 
demos calcular su complejidad y generar una aproximación de la complejidad 
de la cadena original. Tampoco es necesario recorrer espacios completos para 
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aproximar un valor de complejidad. Muéstreos del espacio de máquinas de Tu- 
ring con 5 estados, espacios de autómatas celulares unidimensionales con rangos 
de vecindad más grandes y otros formalismos de computación, como sistemas 
de substitución, pueden utilizarse. De hecho una pregunta abierta, es qué tanto 
pequeñas diferencias en un mismo formalismo impactan las medidas de comple- 
jidad. Por ejemplo, si se les permite a las máquinas de Turing quedarse en la 
misma celda o no moverse más que en una dirección de la cinta (variantes que 
preservan universalidad). 

A manera de conclusión, Chaitin ha expresado [6] que (hablando de los 
resultados de nuestro método): 

. . .the dreaded theoretical hole in the foundations of algorithmic 
complexity turns out, in practice, not to be as serious as was pre- 
viously assumed. 

(. . .el agujero teórico terrible en los fundamentos de la complejidad 
algorítmica resulta, en la práctica, no ser tan grave como se suponía 
anteriormente) . 

Sin embargo, lo cierto es que estamos muy lejos de haber sacado todas las 
conclusiones y aplicaciones posibles. 
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